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摘要 : 【 目的】 拓展 以 物种 为 中 心 的 植物 物种 多 样 性 抽取 框架 , 探索 实现 语义 知识 抽取 方法 。[ 方法 ] 结合 当前 
生物 多 样 性 抽取 的 主流 研究 ,以 物种 为 中 心 , 设计 包含 多 种 实体 及 实体 间 关 系 的 知识 抽取 框架 , 利用 已 有 的 众 
多 专业 数据 库 , 设计 并 实现 相应 的 识别 方法 。[ 结果 ] 设计 以 物种 为 核心 的 知识 抽取 框架 , 探索 实现 多 种 实体 及 
实体 间 关 系 的 语义 知识 抽取 方法 , 拓展 植物 物种 多 样 性 领域 抽取 内 容 和 思路 。[ 局 限 】 实体 识别 的 完整 性 和 准确 
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性 受 底层 知识 库 影 响 较 大 , 且 实 体 间 关系 的 类 型 局 限于 共 现 、 上 下 位 类 、 语 法 关系 几 类 ， 


还 需 进 一 步 研 究 。[ 结 


论 ] 本 研究 拓展 了 植物 物种 多 样 性 抽取 内 容 和 思路 , 可 有 效 支 持 语义 检索 、 科 学 计算 。 
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当前 , 气候 变化 、 自 然 灾 害 等 原因 导致 物种 灭绝 
速度 越 来 越 快 , 针对 生物 多 样 性 保护 与 持续 利用 的 研 
究 日 益 成 为 生物 多 样 性 研究 的 焦点 , 植物 物种 作为 生 
物 多 样 性 领域 的 重要 内 容 之 一 , 针对 其 多 样 性 的 研究 
也 吸引 了 众多 科研 人 员 。 如 何 帮 助 科 研 人 员 从 大 量 富 
含 植物 物种 名 称 、 基 因 、 实 验 设备 等 实体 的 文档 中 快 
速 发 现 所 需 信息 , 是 植物 物种 多 样 性 信息 学 面临 的 重 
要 问题 之 一 。 针 对 此 , 越 来 越 多 的 研究 者 正 努 力 尝试 
利用 现 有 众多 的 植物 物种 多 样 性 专业 数据 库 ， 如 物种 
名 录 、 标 本 库 、 图 片 库 、 基 因 库 等 ,从 植物 物种 多 样 
性 描述 文本 或 文献 中 提取 知识 对 象 , 并 借助 语义 内 容 
标注 技术 实现 自动 深层 标 引 , 实现 数字 资源 之 间 的 语 
义 集成 和 关联 ， 从 而 为 进一步 的 语义 检索 、 数 据 挖 气 、 
科学 计算 提供 支撑 。 

本 文 在 当前 植物 物种 多 样 性 信息 抽取 领域 相关 研 


ll 


究 的 基础 上 , 结合 中 国 科学 院 文献 情报 中 心 “建设 生 
物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平台 ”的 
实际 要 求 ,以 植物 物种 多 样 性 为 目标 领域 , 设计 了 植 
物 物种 多 样 性 语义 知识 组 织 框架 , 探索 实现 了 针对 框 
架 中 定义 的 语义 知识 单元 的 抽取 方法 , 开发 了 相应 的 
植物 物种 多 样 性 示范 平台 。 


2 相关 研究 概述 


在 众多 人 研究 者 的 努力 下 , 目前 已 经 有 不 少 针对 生 
物 多 样 性 领域 的 信息 抽取 工具 , 这 些 工具 或 者 采用 单 
一 的 自然 语言 处 理 、 词 典 、 机 器 学 习 、 规 则 模板 、 浅 
度 或 深度 句法 解析 等 方法 , 或 者 融合 上 述 儿 种 方法 进 
行 识别 , 识别 的 内 容 多 数 集中 于 物种 的 各 类 名 称 (科学 
命名 、 别 名 、 俗 名 、 变 种 名 等 ), 部 分 工具 涉及 对 物种 
的 性 状 的 识别 。Thessen 等 中 综述 了 当前 在 生物 多 样 性 
领域 使 用 自然 语言 处 理 和 机 器 学 习 算 法 实现 物种 名 称 
识别 的 相关 研究 ; Naderi 等 中 介绍 了 GATE 框 架 下 提供 
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的 生物 医学 领域 的 各 种 抽取 工具 。 上 述 文献 对 常规 的 
生物 多 样 性 信息 抽取 流程 ,主流 的 信息 抽取 方法 进行 
了 全 面 的 评述 , 并 对 各 个 阶段 的 主要 信息 抽取 工具 进 
行 了 全 面 的 综述 。 本 文 不 再 对 上 述 内 容 进行 重复 梳理 ， 
而 是 结合 当前 一 些 重要 的 生物 多 样 性 信息 抽取 工具 ， 
重点 对 植物 物种 多 样 性 领域 抽取 的 内 容 进 行 探讨 , 希 
望 在 此 基础 上 对 笔者 提出 植物 物种 多 样 性 知识 抽取 框 
架 提 供 参 考 支 撑 。 

目前 植物 物种 多 样 性 的 抽取 研究 ,主要 内 容 可 以 
归纳 为 以 下 几 个 方面 : 
2.1 物种 名 称 识别 及 规范 

由 于 语种 、 地 方 称谓 等 差异 ,科技 文献 中 出 现 的 
同一 个 物种 名 称 是 多 种 多 样 的 。 有 的 是 标准 规范 的 双 
名 制 命名 法 (或 三 名 制 命名 法 ) 形 成 的 拉丁 文 名 ， 即 属 
名 加 种 名 , 且 属 名 在 前 , 种 名 在 后 , 属 名 第 一 个 字 大 
写 , 种 名 小 写 , 属 种 名 称 均 为 全 称 , 后 面 通常 还 会 跟 
随 着 物种 命名 人 的 姓氏 点 有 的 取 属 名 首 字 母 .种 名 全 
称 的 缩写 方式 ; 有 的 会 采用 物种 的 俗名 (可 能 是 英文 ， 
也 可 能 是 其 他 语种 ,同一 个 物种 在 不 同 的 国家 或 地 区 
也 可 能 会 有 不 同 的 俗名 ) 站 。 这 些 问 题 的 存在 大 大 增加 
了 物种 名 称 识别 的 难度 。 因 此 目前 有 不 少 研究 者 专门 
针对 物种 名 称 的 识别 、 规 范 及 组 织 进行 研究 , 这 也 是 
当前 植物 物种 多 样 性 抽取 相关 研究 的 主流 。 这 些 研究 
成 果 中 比较 典型 的 包括 可 用 作物 种 名 称 识别 与 规范 词 
典 的 NCBI TaxonomyF、BioNamestg( 一 个 将 动物 名 称 
与 其 来 源 描述 、 分 类 及 进化 树 关 联 的 在 线 数据 库 )、 物 
种 2000 全 球 生物 物种 名 录 : 也 包括 各 种 比较 成 熟 物 
种 名 称 识 别 工具 如 NetiNeti 久 、 
Linnaeus 和 由 、TaxonGrab1q 等 。 
2.2 ”物种 性 状 识别 

对 物种 分 类 学 研究 人 员 而 言 , 物种 的 各 类 性 状 描 
述 信息 , 如 根 、 茎 、 叶 的 颜色 、 长 度 等 , 是 界定 物种 门 
类 的 重要 参考 信息 。 因 此 , 有 一 部 分 生物 信息 学 研究 
人 员 着 力 于 探索 物种 各 类 性 状 的 自动 识别 方法 。 
Taylort 在 分 析 文 本 语法 特征 的 基础 上 ,以 人 工 方 式 
建立 规则 和 词典 , 实现 了 物种 部 位 、 特 征 及 状态 等 描 
述 信 息 的 识别 。Tang 等 24 在 相关 研究 基础 上 , 通过 预 
定义 模板 的 方式 ， 有 监督 地 学 习 生 成 相关 的 规则 ， 实 
现 了 对 物种 叶子 的 形状 、 大 小 、 颜 色 、 排 列 及 果实 的 
形状 特征 的 识别 。CharaParser 采用 启发 式 方法 和 句法 特 
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征 生 成 规则 , 较 好 地 实现 了 对 物种 多 类 性 状 的 识别 中 1。 
段 宇 锋 等 "持续 探索 着 中 文 植物 物种 多 样 性 描述 文本 
中 形态 信息 的 抽取 。 
2.3 ”生物 网 络 识 别 

各 种 生物 实体 (物种 、 分 子 、 基 因 、 和 蛋白 等 ) 之 间 存 
在 多 种 关系 ,这 些 关系 可 以 用 网 络 图 的 方式 表达 出 来 ， 
进而 通过 对 图 的 分 析 实 现 对 生物 系统 的 分 析 " 9。 和 蛋 
白质 和 基因 是 生物 医药 领域 普遍 关注 的 重点 内 容 , 关 
于 这 类 知识 的 识别 研究 并 不 限 在 植物 物种 多 样 性 领域 
开展 。 当 前 植物 物种 多 样 性 相关 的 文献 中 ,可 通过 对 
物种 基因 测序 的 方式 来 鉴定 物种 的 亲缘 性 ,也 可 通过 
采用 和 蛋白质 或 基因 技术 影响 或 改变 生物 的 内 外 环境 或 
特征 ， 从 而 研究 相关 问题 ,因此 , 对 和 蛋白质 和 基因 的 识 
别 更 多 地 不 仅仅 是 识别 出 蛋白 质 、 基 因 等 命名 实体 ， 
而 是 识别 出 各 类 生物 实体 之 间 通 过 动词 (或 动词 短 
语 )、 介 词 ( 或 介词 短语 )、 所 有 格 等 关联 而 成 的 生物 网 
络 关 系 。 

综观 目前 生物 多 样 性 领域 , 尤其 是 植物 物种 多 样 
性 的 信息 抽取 研究 内 容 , 多 数 是 围绕 某 一 类 信息 进行 
识别 方法 的 探索 , 并 以 结构 化 描述 植物 物种 的 多 样 性 
特征 或 辅助 判别 物种 为 最 终 目 标 , 鲜 有 面向 科技 文献 
内 容 的 知识 化 组 织 和 语义 检索 的 系统 研究 与 框架 设 
计 。 本 文 基于 当前 研究 成 果 ， 进一步 系统 化 设计 相应 
的 语义 组 织 知识 框架 ,并 从 实际 应 用 的 角度 探索 相应 
知识 单元 的 快速 识别 方法 。 


3 语义 知识 框架 设计 


要 开展 植物 物种 多 样 性 的 语义 知识 抽取 工作 , 首 
先 要 明确 需要 从 目标 资源 中 抽取 哪些 内 容 ， 即 要 构建 
合理 的 语义 知识 描述 框架 , 该 框架 是 描述 本 领域 需要 
抽取 的 语义 知识 单元 及 关联 关系 的 重要 依据 , 也 是 后 
续 知识 组 织 揭 示 的 重要 支撑 。 因 此 , 在 对 现 有 相关 研 
究 分 析 的 基础 上 , 结合 中 国 科学 院 文献 情报 中 心 “ 建 
设 生 物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平台 ” 
的 实际 要 求 , 设计 了 支撑 该 示范 平台 的 语义 知识 框架 。 
本 节 将 详细 介绍 该 框架 的 设计 流程 与 框架 内 容 。 

3.1 语义 知识 框架 的 层级 

在 构建 本 框架 的 过 程 中 ， 首 先 以 “Oryza 
sativa( 水 稻 物 种 )” 为 检索 词 ,， 在 PubMed 数据 库 的 
Plant Physiology、The Plant Cell 期 刊 上 实施 检索 ， 并 
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从 检索 集合 中 随机 选择 100 篇 科技 文献 进行 人 工 标 
引 , 再 通过 咨询 中 国 科学 院 植 物 研 究 所 专家 确认 标 
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essential element for certals, playing importaiit roles. ED epfactor of several enzymes: 
Copper < 化 学 元 素 > and four other metals (< 化 学 元 素 > Fe < 北 学 元 素 >, < 化 学 元 素 >Mn< 叱 
学 元 素 > , < 化 学 元 素 >Zn< 北 学 元 素 > and < 化 学 元 素 =hkfo<! 化 学 元 素 > ) taken up by roots are 
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引 的 知识 单元 。 人 工 标 引 主要 从 三 个 层次 展开 ， 如 
图 1 所 示 。 
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图 1 人 工 标 引 的 层级 示例 


(1) 在 句子 层级 , 重点 是 通过 标识 特定 用 途 的 知 
识 句 群 实现 科技 文献 的 结构 化 组 织 。 在 科技 文献 中 ， 
有 不 少 知识 无 法 简单 地 以 某 个 知识 单元 (词组 ) 或 知 
识 单元 间 关 联 关系 的 形式 展示 出 来 ， 比 如 一 个 完整 
a oly 

件 ) 一 个 完整 的 实验 过 程 等 , 这些 内 容 中 可 能 

Rap i 
et ae 
形成 知识 句 群 ， 并 确定 各 知识 句 群 所 属 的 类 型 ， 如 研 
究 方 法 、 实 验 过 程 、 研 究 结 果 等 ， 可 实现 科技 文献 知 
识 的 重组 织 。 

(2) 在 知识 单元 层级 , 主要 是 考虑 在 实际 的 科技 
文献 中 ,经常 包含 众多 有 明确 的 语义 类 别 的 知识 单元 ， 
它们 往往 以 命名 实体 名 称 或 短语 的 形式 在 文献 中 呈 
现 , 承载 了 科技 文献 的 主要 知识 内 容 。 对 这 一 类 的 知 
识 单 元 进行 抽取 识别 , 可 以 从 内 容 上 实现 科技 文献 内 
容 的 细 粒 度 揭 示 , 对 后 续 的 语义 检索 有 重要 意义 。 

(3) 在 知识 单元 的 关系 层级 ， 主 要 是 考虑 到 知识 
单元 并 不 是 以 独立 、 分 散 的 形式 存在 于 科技 文献 中 ， 
它们 彼此 之 间 往 往 还 通过 共 现 、 主 谓 宾 等 表达 方式 ， 
形成 各 种 语义 关联 , 结合 这 些 语义 关联 可 最 大 化 地 实 


现 深层 的 文本 内 容 挖 气 。 

上 述 三 个 层级 的 标 引 内 容 中 ， 因 为 句子 层次 的 抽 
取 研 究 相 对 独立 , 笔者 在 前 期 论文 中 中 已 有 专门 论述 ， 
本 文 不 再 赣 述 。 下 文 将 重点 详细 论述 知识 单元 及 其 之 
间 的 关系 的 具体 内 容 。 
3.2 ”语义 知识 框架 的 内 容 

在 本 研究 的 语义 知识 框架 中 ,知识 单元 及 知识 单 
元 之 间 的 关系 是 重要 内 容 。 人 参照 人 工 标 引 的 结果 和 当 
前 生物 多 样 性 领域 重点 关注 的 抽取 内 容 ， 并 结合 项 目 
的 实际 需求 及 后 续 抽取 识别 的 可 能 性 , 笔者 设计 了 如 
图 2 所 示 的 植物 物种 多 样 性 语义 知识 框架 。 该 框架 知 
识 单元 (图 2 中 方 框 所 示 ) 以 物种 为 核心 ,延伸 了 与 物 
种 相关 的 各 类 知识 单元 。 其 中 , 针对 植物 物种 的 属性 
描述 , 复 用 了 植物 本 体 PO) 中 部 分 概念 , 这 些 知识 单 
元 基本 上 涵盖 了 当前 植物 物种 多 样 性 科技 文献 中 的 主 
要 知识 点 。 这 些 知 识 单 元 之 间 除 了 上 下 位 类 的 关联 关 
系 (图 2 中 有 箭头 指向 的 知识 单元 的 联系 ) 外 , 不 同类 
别 的 知识 单元 间 也 存在 关联 关系 (图 2 中 无 箭头 指向 的 
知识 单元 间 的 联系 ), 通过 共 现 .语法 、 语 义 等 分 析 , 可 
以 构建 形成 这 些 知识 单元 之 间 的 事实 三 元 组 ， 从 而 支 
持 进一步 的 文本 分 析 。 


QD 美国 国家 科学 基金 会 (NSF) 资 助 构建 的 植物 本 体 ， 是 植物 结构 和 生长 阶段 可 控 词汇 表 。 
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es | 
(Province) 
温度 高 度 滨 度 
(Temperature) (height) (humidity) 


(Country) (District) 


地 质 年 : 代 
年 鸭 狂放 物理 环境 : (GeoTime) 
(Environment) 洲 
Continent 
时 间 
| 


分 布 


(biocenosis) 


界 门 纲目 科 学 类 
属 | 
复 用 PO 中 村 物 形 太 
吨 分 属性 植物 形态 


实验 影响 因素 
: 
> 试剂 | [仪器 页 | | 数据 集 化 学 元 素 化 合 物 
《 © (reagent) (tool) (DataSet) (chemicalElement) (chemicalCompound) 


无 法 确定 类 型 的 主题 词 
(Term) 


图 2 植物 物种 多 样 性 语义 知识 框架 

(@y 

e 4 语义 知识 抽取 的 实现 Web of Science 获取 了 27 049 条 科技 文摘 数据 , 构建 
了 5 万 余 篇 实验 数据 集合 。 基 于 这 些 数据 开展 具体 的 
一 看 义 知识 框架 的 构建 一 方面 便于 知识 抽取 实验 

六 收集 整理 、 组 织 已 有 的 结构 化 知识 , 将 现 有 的 植物 本 4 2 知识 抽取 框架 的 设计 


0 2 中 各 类 知识 的 实 
例 进 行 存储 , 另 一 方面 也 为 进一步 的 知识 抽取 提供 了 
明确 的 目标 。 在 此 基础 上 , 按照 下 述 流程 开展 了 植物 


为 了 更 好 地 实现 知识 单元 及 知识 单元 间 关 系 的 识 
别 , 笔者 设计 了 如 图 3 所 示 的 知识 抽取 框架 


物种 多 样 性 领域 的 知识 抽取 。 言 息 标注 与 抽取 结 
4.1 语 料 的 整合 与 实验 数据 的 选择 > 
在 确定 植物 物种 多 样 性 语义 知识 组 织 框架 的 基础 i 


| 上 , 通过 专家 咨询 及 参考 中 国 科学 院 植物 研究 所 的 相 
QO” 关 研究 0 整理 汇集 了 G2000" 植 物 本 体 数据 库 .NCBI 


物种 库 加 等 相关 领域 术语 和 词汇 、 地 址 名 称 词 表 、 2 
Chemical Entities of Biological Interes 中 的 小 化 合 物 ; 

名 称 等 语 料 ,参照 语义 组 织 框架 中 定义 的 知识 单元 进 “。。 哺 取 工具 太 5- ee 
人 最 终 整 合 形成 近 17 万 条 实例 数据 。 这 Tr To ir) CLingpipe) AN Te (CBee) 


的 标注 , 男 一 方面 ,基于 这 些 资 源 可 通过 半 人 工 的 方 
式 构建 实体 识别 规则 库 , 用 于 新 实例 的 识别 。 | | 
此 外 , 从 PubMed 中 Plant Physiology、The Plant 项 


人 OF [ ears 
些 领 域 资源 一 方面 可 作为 词 表 直 接 用 于 知识 单元 实例 Ce re 人 
Learning 


Cell 两 个 期 刊 上 获取 了 23 000 篇 期 刊 文摘 , 并 根据 中 2 2 物种 本 体 【】 【用户 记 典 | 
国 科学 院 植物 研究 所 提供 的 20 种 核心 期 刊 列 表 ， 从 图 3 语义 知识 抽取 框架 


.一 个 植物 物种 本 体 库 , 由 中 国 科学 院 植 物 研究 所 提供 。 
Chemical Entities of Biological Interest(ChEBD) 是 可 免费 获取 使 用 的 一 个 生物 化 学 实体 本 体 , 该 本 体 集中 关注 小 分 子 的 化 合 物 。 


数据 分 析 与 知识 发 现 


(1) 输入 数据 源 : 包括 待 抽取 的 科技 文献 及 相关 
领域 资源 (植物 多 样 性 本 体 、NCBI 物种 库 等 )。 

(2) 抽取 工具 及 方法 : 通过 采用 不 同 的 自然 语言 
处 理工 具 (包括 Stanford Parser、Berkeley Parser 等 )， 实 
现 对 文本 的 词性 标注 、 句 法 依存 关系 分 析 及 句子 的 语 
法 语义 分 析 。 

(3) 实体 抽取 与 关系 抽取 : 实体 ( 即 知识 单元 实 
例 ) 抽 取 与 关系 抽取 之 间 是 交叉 迭代 实现 的 过 程 。 一方 
面 ， 实 体 抽取 本 身 是 一 个 迁 代 过 程 ,新 识别 的 命名 实 
体 添加 到 用 户 词典 中 ,可 用 于 下 一 轮 的 实体 识别 过 程 ; 
另 一 方面 , 关系 抽取 的 结果 也 可 以 用 于 发 现 新 的 实体 ， 
新 发 现 的 实体 用 于 下 一 轮 的 关系 发 现 过 程 。 

(4) 信息 抽取 结果 存储 : 根据 信息 抽取 结果 类 型 
的 不 同 , 采用 RDF 存储 和 数据 库存 储 两 种 方式 实现 实 
体 及 关系 的 存储 。 

4.3 知识 单元 实例 及 关系 抽取 

为 了 实现 知识 单元 实例 及 关系 的 快速 准确 抽取 ， 
利用 词典 、 规 则 、 句 法 分 析 等 方法 开展 抽取 工作 。 其 
中 , 直接 基于 领域 词典 的 实体 标注 是 所 有 知识 抽取 研 
究 的 基础 ， 本 研究 主要 依赖 词典 实现 部 分 物种 名 称 、 
地 理 位 置 、 部 分 化 学 元 素 与 化 合 物 、 部 分 领域 主题 词 
等 的 抽取 ,具体 过 程 与 现 有 的 相关 研究 并 无 差异 , 不 
再 袭 述 ,本 文 将 重点 论述 基于 规则 的 实例 抽取 与 新 实 
例 的 识别 方法 。 

(1) 知识 单元 实例 的 标注 与 抽取 

为 了 实现 除 词典 中 所 含 实例 之 外 的 知识 单元 实例 
的 识别 , 笔者 主要 设计 了 以 词典 为 基础 ， 基 于 规则 和 统 
计 方 法 相 结合 的 方法 。 具 体 包 含 以 下 几 个 流程 : 

基于 规则 的 知识 单元 识别 。 尽管 科技 文献 文本 中 的 知 
识 单 元 实例 具体 表现 形式 各 不 相同 ,但 通过 笔者 对 相关 语 
料 的 分 析 , 发 现 其 组 成 词 在 词 形 、 词 性 、 组 合 方式 等 方面 具 
有 一 些 共性 ， 如 人 物 、 机 构 、 数 值 型 信息 、 仪 器 设备 等 。 针 
对 这 一 类 型 的 知识 单元 实例 可 通过 人 工 辅助 撰写 规则 的 方 
式 有 效 提高 识别 的 准确 率 。 针 对 此 ,笔者 探索 了 如 下 快速 构 
建 规则 的 通用 流程 。 

1) 收 集 某 一 特定 类 别 的 知识 单元 实例 样本 ,对 该 样本 进 
行 分 词 、 分 句 、 词 性 标注 等 自然 语言 处 理 。 

2) 针 对 组 成 比较 简单 的 知识 单元 实例 ， 如 年 份 、 日 期 、 
实验 数据 ， 以 及 相关 的 描述 数值 等 ,这 类 对 象 的 识别 可 以 借 
助 构 词法 规则 构建 相关 模式 。 

3) 去 除 第 1) 步 分 词 结果 中 的 介词 、 副 词 等 无 实际 含义 的 
词 ， 从 词 频 角度 判断 是 否 存在 特殊 的 专 有 词汇 ( 即 类 别 指 征 
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词 )。 

4) 针 对 有 类 别 指 征 词 的 知识 单元 实例 ， 在 自然 语言 处 理 
标注 的 基础 上 ，, 将 每 个 实例 条 目 表 现 为 词性 、 词 形 模式 , 其 
中 特征 词 和 名 词 以 外 词性 的 词 保 持原 字符 串 输出 。 如 图 4 两 
个 示例 ， 其 中 Token 代表 分 词 , Token.orth 表示 该 分 词 的 拼 字 
法 , Token.category 表示 词性 。 统 计 上 述 样本 模式 中 特征 词 的 
位 置 ， 按 照 特 征 词 位 置 对 样本 条 目 进 行 第 一 次 分 类 ， 即 分 为 
特征 词 在 “ 头 部 、 中 部 、 尾 部 "三 类 。 在 各 个 类 别 中 ， 再 按照 
词 形 组 合 进行 分 类 ， 如 不 含有 介词 、 所 有 格 等 词 串 的 为 一 类 ， 
包含 介词 的 词 串 为 一 类 ， 包含 所 有 格 的 为 一 类 , 均 包 含 的 为 
一 类 。 根据 第 二 次 分 类 的 结果 ,最 终 可 以 获取 有 效 的 模式 组 
合 。 以 高 校 为 例 , 通过 上 述 的 分 类 学 习 ， 最 终 形成 的 高 校 实 
例 模 式 基 本 包括 :“< 特 征 词 > of NN/NNS*”(NN/NNS 标识 首 
字母 大 写 或 全 部 大 写 的 名 词 或 名 词 复数 ，* 代 表 多 个 
NN/NNS, )、“NN/NNS* < 特征 词 >”、“(NN/NNS)('s)NN/NNS* 
< 特征 词 >”、“NN/ NNS* < 特征 词 > < 介词 > NN/NNS*” 等 。 将 
以 上 学 习 出 的 模式 转换 为 有 限 状态 机 ， 可 用 于 实例 识别 的 
实现 。 


例 1;， University of New South Wales Australia 
{(Token.string 一 University) (Token.string == of) { Token.orth == upperImnitial， 
Token.category == NNP)*4 } 


例 2: Toronto's York University 
{{ Token.orth == upperInitial, Token.category == NNP) (Token.string 一 5 ) 
{ Token.orth =—= upperlnitial, Token,category =— NNP) {Token.string == University)} 


图 4 知识 单元 实例 样本 的 模式 输出 示例 

5) 针 对 无 类 别 指 征 词 的 知识 单元 实例 ,收集 包含 某 类 型 
科研 要 素 实例 的 样本 语句 ， 人 工 标 记 出 其 中 的 科研 要 素 实 
例 作 为 训练 样本 ; 对 所 有 的 样本 语句 进行 分 词 、 词 性 标注 、 
句法 解析 等 操作 ,获取 相关 的 语言 学 特征 ; 获取 样本 语句 中 
科研 要 素 实例 的 n 个 上 下 文 临近 词 (n 可 以 灵活 调整 ,本 研究 
中 参考 Jiang 等 ("的 研究 , 将 n 设 定 为 4), 统计 这 些 上 下 文 
临近 词 的 词 频 , 获取 前 三 个 最 高 词 频 的 临近 词 , 统计 包含 这 
些 高 频 临 近 词 的 词 条 百分比 ， 车 超出 50%， 可 以 认为 该 词 具 
有 此 类 科研 要 素 前 导 词 或 后 引 词 的 语义 特征 。 对 上 文 获取 的 
前 导 词 或 后 引 词 分 别 从 WordNet 中 获取 其 同义词 集合 
Synset[train]， 逐个 解析 待 识 别 科研 要 素 所 在 的 句子 ,同样 
获取 其 n 个 上下文 临 近 词 , 分 别 获取 这 些 临 近 词 在 WordNet 
中 的 同义词 集合 Synset[test], 计算 n 个 临近 词 的 Synset[train] 
与 Synset[test] 相 似 度 之 和 ,， 见 公式 (1) 和 公式 (2)。, 这 里 选择 使 
用 计算 同义词 集合 的 最 大 相似 度 替代 直接 的 词 与 词 之 间 的 
相似 度 ,， 主要 考虑 到 现实 文本 中 ,各 语义 在 用 词 选 择 、 词 的 
词 形 、 拼 写 等 方面 存在 变异 等 情况 ,计算 同义词 集合 的 最 大 
相似 度 可 以 降低 这 些 情 况 造成 的 词 间 相 似 度 过 低 的 影响 。 

Sim = ?Sim(nw) (1) 


Sim(nw) = Sim(Synset,,,,,, Synset,,s) (2) 


其 中 ,Sim 是 最 终 的 总 体 相 似 度 ，Sim(nw) 是 每 一 个 临近 


train?» 
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词 的 相似 度 。 

通过 上 述 的 规则 , 一 方面 可 以 直接 实现 知识 单元 实例 的 
抽取 识别 ， 另 一 方面 ,还 可 获取 候选 实例 ， 以 便 进一步 通过 其 
他 方法 确认 其 语义 类 别 。 但 是 依赖 于 人 工 辅助 撰写 规则 库 虽 
然 准确 性 较 高 , 规则 履 盖 的 全 面 性 会 直接 影响 抽取 的 查 全 率 。 
因此 , 还 有 一 部 分 知识 单元 实例 需要 通过 其 他 方法 来 识别 。 

@) 基 于 词典 相似 性 的 知识 单元 实例 识别 。 虽 然 基 于 词典 
的 实例 识别 无 法 解决 新 实例 的 识别 问题 ,但 词典 依然 为 新 
实例 的 识别 提供 了 重要 的 支撑 。 依据 词 形 、 词 性 、 词 频 、 句 
法 成 分 等 特征 ,可 史 选 出 待 抽 取 的 新 知识 单元 实例 集合 。 然 
后 进一步 计算 候选 实例 与 词典 中 实例 之 间 的 编辑 距离 ， 获 
得 候选 知识 单元 与 词典 中 实例 的 相似 度 ， 以 实现 对 一 些 未 
登录 词 的 识别 。 


图 基于 句法 分 析 的 知识 单元 实例 识别 。 知 识 单元 实例 抽 
取 与 关系 抽取 之 间 是 一 个 交 又 迭代 实现 的 过 程 , 关系 抽取 
的 结果 可 用 于 发 现 新 的 实例 。 针 对 一 些 通过 规则 、 词 典 相 似 
性 仍 无 法 识别 的 候选 实例 ， 可 以 借助 于 句法 分 析 中 获得 的 
句法 依存 关系 及 语法 关系 (并 列 的 句子 成 分 )， 结合 统计 分 析 
的 算法 ， 实 现实 例 语义 类 型 的 判别 。 

具体 而 言 , 借助 Parser 进行 句法 解析 时 ,可 将 句 
子 表示 为 层级 的 句法 树 。 以 “Bell based in Los Angeles， 
makes and distributes electronic, computer and building 
products.” 为 例 ， 其 经 过 Parser 解析 的 句法 树 如 图 5 所 
示 , 其 句法 标记 采用 了 Penn 树 库 中 ,这 与 多 数 词 性 标 
注 系统 都 可 兼容 。 


ROOT 
| 
S 
NN 
NP VP : 
NP ， VP ， VBZ CC VBZ NP 
| | 2 | | | cc 
NNP ， VBN PP , makes and distributes UCP NNS 
| | 一 信人 A | 
Bell based IN NP JJ 5 NN CC NN products 
| 一 ~、 | | | | | 


in NNP NNP 


Los Angeles 


electronic computer and building 


图 5 Parser 解析 生成 的 句法 树 F0 


除名 法 解析 树 外 , 还 可 以 借助 Parser 获取 句法 依 
存 分 析 结 果 ， 如 图 6 所 示 。 图 中 右 半 边 的 依存 句法 分 


依存 句法 分 析 结 果 : 
nsubj (makes-8, Bell-1) ; 
nsubj (distributes-10, Bell-1) ; 
Partmod (Bell-l, based-3) ; 


例句 :Bell, based in Los Angeles, makes and distributes electronic, computer and building products. 


依存 句法 分 析 结果 说 明 : 

nsubj (makes-8, Bell-1) ; nsubj (distributes-10, Bell-1) ; 
表明 Bell 与 makes、distributes 的 主 谓 关系 ; 

Partmod (Bell-1，based-3) ; 表明 以 based 动 词 分 词 形式 修饰 Bell; 


析 结 果 说 明 中 ,括号 内 的 都 是 句 中 的 实例 ， 括 号 前 的 
nsubj 、partmod 等 关键 词 标识 特定 的 依存 关系 。 


nn(Angeles-6,Los-5); 
prep_in(based-3, Angeles-6); 
conj_and(makes-8, distributes-10); 
amod(products-16, electronic-11); 
conj_and(electronic-11, computer-13); 
amod(products-16, computer-13); 
conj_and(electronic-11, building-15); 
amod(products-16, building-15); 

dobj (makes-8, products-16) ; 
dobj(distributes-10, products-16) 


nn(Angeles-6,Los-5); 表明 Los Angeles 为 复合 名 词 词组 ; 
prep_in(based-3, Angeles-6); 表明 介词 关系 ; 
conj and(makes-8, distributes-10); 表明 makes 与 distributes 并 列 关系 ; 


amod(products-16, electronic-11); amod(products-16, computer-13); 
amod(products-16, building-15); 
表明 products 中 包含 了 electronic、computer 和 building， 


conj_and(electronic-11, computer-13);con)j and(electronic-11, building-15); 


表明 electronic、computer 和 building 的 并 列 关 系 ; 
dobj (makes-8, products-16) ;dobj(distributes-10, products-16) 
表明 products 是 makes、distributes 的 直接 宾语 


图 6 Parser 解析 生成 的 依存 语法 结果 及 说 明 
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从 图 6 中 可 以 看 到 , 依据 句法 分 析 , 可 以 比较 清 
晰 地 获取 复合 名 词 短 语 ， 即 句法 树 中 的 NP 模块 , 而 复 
合 名 词 短 语 内 各 词 的 依存 关系 特征 也 可 以 清楚 地 显示 
出 词组 内 的 关联 关系 。 如 通过 conj and(electronic-11， 
computer-13) 可 以 获取 到 electronic 和 computer 的 并 列 
关系 , 大 确定 了 这 两 者 中 任意 一 个 的 语义 类 别 ， 即 可 
判定 另外 一 个 的 类 别 , 从 而 实现 实例 类 型 的 标注 。 

(2) 关系 的 抽取 

知识 单元 之 间 的 关系 存在 很 多 种 , 包括 共 现 、 同 
位 语法 、 并 列 语法 、 事 实 关 系 、 语 义 上 下 位 类 等 ,其 
中 共 现 关系 最 为 简单 , 依据 两 个 知识 单元 实例 是 否 共 
同 出 现在 指定 的 窗口 内 (全 文 、 摘 要 、 句子 )， 即 可 判定 
二 者 之 间 是 否 存 在 共 现 关系 , 这 也 是 判定 知识 单元 之 
间 是 否 存 在 相关 性 的 最 简单 直接 的 做 法 。 本 人 研究 中 因 
为 处 理 的 文本 对 象 为 期 刊 的 摘要 ,因此 , 在 构建 共 现 
关系 时 , 选用 句子 作为 共 现 窗口 ， 即 如 果 两 个 实例 共 
同 出 现在 同一 个 句子 中 , 即 为 共 现 关系 。 此 类 关系 的 
判别 比较 简单 ， 本 文 不 做 详细 说 明 , 而 是 重点 介绍 基 
于 句法 分 析 的 语法 、 事 实 与 语义 规则 的 关系 识别 。 

中 同位 与 并 列 语法 关系 抽取 。 如 上 文 “基于 和 句法 分 析 的 
知识 单元 实例 识别 ”中 所 描述 ， 有 一 类 新 实例 的 识别 即 借助 
于 实体 的 同位 与 并 列 语法 的 关系 来 鉴定 。 同样, 在 确认 了 两 
个 实例 的 类 型 之 后 ,基于 句法 解析 和 句法 依存 关系 解析 中 
所 获取 的 and、or 等 关系 ， 即 可 确认 两 个 实例 之 间 的 同位 与 
并 列 语法 关联 。 

事实 关系 识别 。 本文 所 论 及 的 事实 关系 主要 是 指 在 文 
中 存在 的 主 谓 宾 关 系 ， 即 <S, PO>( 主 语 , 谓词， 宾语) 事实 ， 
这 一 类 关系 可 为 后 续 的 推理 提供 重要 的 支持 。 针 对 此 类 关系 
的 识别 ， 笔者 设计 如 下 流程 : 

1) 输 入 已 完成 分 词 、 分 名 及 知识 单元 实例 识别 的 文本 。 
以 分 句 结果 为 循环 处 理 参 照 ,逐个 处 理 每 个 分 句 。 针 对 非 动 
词 谓词 和 动词 谓词 分 别 构建 两 个 空 的 关系 三 元 组 列表 。 

2) 判 断 每 个 分 名 中 是 否 包含 一 个 以 上 图 2 中 定义 的 知识 
单元 实例 。 若 不 包含 , 则 结束 此 身分 析 , 返回 步骤 1)， 继 续 
下 一 个 句子 的 分 析 ; 若 包含 两 个 及 两 个 以 上 的 科研 要 素 ， 继 
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续 步 骤 3)。 

3) 依 照 Parser 解析 器 解析 的 句法 结果 ， 自 名 法 树 底层 开 
始 ， 逐 层 构建 最 简 结构 的 简单 句 ( 即 仅 包 含 一 个 主 谓 宾 结 构 
的 句子 , 而 不 包含 任何 的 从 句 )， 构建 分 句 的 简单 句 群 。 此 步 
又 获得 的 简单 句 群 成 为 第 二 个 循环 点 。 

4) 逐 个 判断 简单 句 群 中 每 一 个 简单 名 是否 包含 一 个 以 
上 图 2 中 定义 的 知识 单元 实例 。 若 不 包含 , 则 结束 此 名 分 析 ， 
返回 继续 下 一 个 句子 的 分 析 ; 若 包含 ， 继 续 步 又 5)。 

5) 借 助 Parser 解析 器 获取 的 句法 依存 关系 ,获取 主 谓 宾 
关系 ,构建 (主语 词组 , 谓语 动词 ， 宾 语词 组) 的 关系 三 元 组 。 
继续 步骤 6)。 

06) 进一步 分 析 ( 主 语词 组 ,谓语 动词 ， 宾语 词组) 的 关系 
三 元 组 ,判断 在 主语 词组 和 宾语 词组 部 分 是 否 均 存在 至 少 
一 个 图 2 中 定义 的 知识 单元 实例 。 若 有 , 进入 步骤 7); 车 所 
有 实例 全 部 存在 于 同一 个 词组 部 分 ， 则 跳 到 步骤 8)。 

7) 若 主语 词组 和 宾语 词组 中 均 仅 存 在 一 个 实例 ,判断 这 
些 科研 要 素 实例 间 是 否 存在 转 义 问题 。 若 无 ， 则 构建 相应 的 
关系 三 元 组 ,添加 入 动词 关系 三 元 组 列表 中 。 若 存在 转 义 ， 
则 依据 转 义 语义 关系 选择 是 否 放弃 该 关系 三 元 组 。 若 主语 词 
组 和 宾语 词组 中 存在 一 个 以 上 的 实例 , 则 基于 排列 组 合 的 
方法 依次 处 理 , 但 是 需要 注意 ,此 时 需要 注意 并 列 问 题 所 引 
起 的 歧义 。 

8) 分 析 相 应 词组 中 的 科研 要 素 实 例 ， 借 助 其 标注 类 型 等 
信息 ,判定 其 语义 关系 。 

9) 输 出 动词 关系 三 元 组 列表 。 

图 语义 上 下 位 关系 的 发 现 。 这 一 类 关系 主要 是 以 所 有 
格 、 固 定 句 式 、 常 用 表达 (如 such as, for example, as well as 
等 ) 为 代表 的 有 限 关系 ,这 类 关系 可 以 主要 通过 模式 规则 隐 
式 构建 关系 三 元 组 ,发 现实 例 之 间 的 语义 上 下 位 关系 。 为 了 
实现 此 类 关系 的 识别 ， 笔 者 主要 参考 Hearst 模式 1 进行 相 
关 模 式 规则 的 扩展 ， 人 工 构造 了 20 多 条 关系 规则 ， 从 而 实 
现 了 相应 关系 的 识别 。 

4.4 知识 抽取 的 结果 应 用 

基于 上 述 的 知识 抽取 方法 , 从 5 万 多 篇 相关 的 文 
献 标题 和 摘要 中 共 获 得 273 668 条 知识 单元 的 实例 抽 
取 结 果 ,， 主 要 的 抽取 类 型 分 布 结果 如 表 1 所 示 ( 只 展示 
了 抽取 实例 数量 大 于 100 的 结果 )。 


表 1 从 实验 数据 中 抽取 的 主要 知识 单元 及 物种 属性 实例 分 布 


实体 类 型 数量 实体 类 型 数量 
物种 - 属 (Genus) 115 698 植物 葵 (plantStemForm) 1 983 
物种 - 科 (family) 25 332 省 (province) 1 845 
习性 (habit) 13 510 花期 (plantFlowerTime) 1 773 
花 颜 色 (plantFlowerColor) 12 649 植物 根 类 型 (plantRootType) 1 725 
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实体 类 型 量 
生态 环境 (cultivatedHabitat) 12 277 
植物 茎 类 型 (plantStemType) 10 306 
物种 -种 (species) 9 478 
寿命 longevity) 8 233 
植物 果实 类 型 (plantFruitType) 6489 
植物 雌 芒 融合 (plantGynoeciumCarpelFusionm) 4 875 
植物 雄蕊 排列 (planAndroeciumStamenArrangement) 4 793 
植物 叶 规 格 (plantLeafArrangement) 3 908 
植物 叶 形 状 (plantLeafShape) 3 609 
植物 叶 缘 (plantLeafMargin) 3 268 
花序 形态 (plantInflorescenceForm) 3 268 
植物 叶 面 (plantLeafSurface) 2 859 
花 结构 数量 (plantrNumbersOfFloralStructure) 2 815 
植物 叶 部 (plantLeafDivision) 2 615 
无 确定 类 型 的 主题 词 (Term) 2 482 
光合 作用 (photosynthesis) 2 282 
植物 叶 性 (plantFlowerSexuality) 2 222 
植物 雄蕊 类 型 (plantAndroeciumStamenType) 2.152 


实体 类 型 量 
化 合 物 (chemicalCompound) 1 637 
授粉 系统 (plantPollinationSystem) 1 509 
基因 (gene) 1 270 
国家 (country) 1 227 
物种 - 目 (order) 1 088 
花 对 称 性 (plantFlowerSymmetry) 1 043 
化 学 元 素 (ChemicalElement) 736 
实验 材料 与 工具 (Tool) 722 
物理 环境 (PhysicalEnvironment) 717 
植物 花 被 (plantFlowerPerianthForm) 621 
植物 叶 结 构 (plantLeafStructure) 510 
器 官 (Organ) 780 
机 构 (Organization) 323 
培养 环境 (culturedHabitat) 264 
物种 - 门 (phylum) 252 
植物 叶 (plantLeaf) 244 
物种 - 纲 (class) 153 
植物 根 结构 (plantRootStructure) 127 
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图 7 植物 物种 多 样 性 领域 SPO 语法 关系 部 分 抽取 结果 


除 表 1 所 示 的 知识 单元 的 实例 外 , 本 研究 从 实验 
数据 中 抽取 获得 133 922 条 SPO 语法 关系 , 抽取 获得 
35 903 条 同位 语 关 系 结果 。 图 7 展示 了 SPO 语法 关系 
的 部 分 抽取 结果 。 

基于 上 述 知识 抽取 的 结果 , 综合 利用 领域 知识 库 
和 其 他 第 三 方 资源 , 进一步 构建 了 植物 物种 多 样 性 领 
域 语义 检索 的 应 用 示范 平台 , 为 用 户 提 供 领 域 知识 揭 
示 、 语 义 标 注 、 本 体 导 航 等 检索 应 用 , 验证 了 本 研究 
成 果 的 有 用 性 和 有 效 性 。 图 8、 图 9 分 别 展示 了 部 分 


数据 分 析 与 知识 发 现 


的 应 用 示范 。 


5 New triterpene saponins from the root of llex pubescens 

Fitoterapia, Volume 81, [ssue 7, October 2010, Pages 788-792 

Cui-Xian Zhang, Chao-Zhan Lin, Tian-Qin Xiong, Chen-Chen Zhu, Jin-Yan Yang, Zhong-Xiang Zhao 
Abstract 

Two new MGOeNSNea named ilexpublesnin A (1) and ilexpublesnin B (2) were isolated from the root of 


28-O-{(B8-D-glucopyranosyl)-386, 
一 1)-6-pD-glucopyranosyl)-36, 


检索 操作 
重新 检索 “triterpen 


统计 信息 


二 次 检索 AND “trite 
二 次 检索 AND NOT 


图 8 基于 本 体 概念 或 实体 的 知识 浏览 、 
检索 与 统计 分 析 功 能 
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图 9 基于 语义 知识 抽取 的 单 篇 文章 共 现 关系 知识 图 
5 结 语 


与 一 般 的 生物 知识 抽取 相 比 , 植物 物种 多 样 性 领 
域 涉及 的 知识 单元 类 型 及 其 关系 更 为 复杂 ,如 生态 环 
境 、 物 种 特征 、 影 响 因 素 等 , 因此 ,在 设计 植物 物种 多 
样 性 领域 语义 知识 框架 时 需要 从 最 终 的 应 用 角度 考虑 
更 多 知识 单元 , 在 具体 识别 中 , 需要 针对 不 同类 别 的 
知识 单元 综合 采用 更 多 领域 无 关 的 知识 抽取 方法 ， 以 
便 适应 多 类 知识 单元 实例 的 抽取 识别 。 

在 对 当前 生物 多 样 性 信息 抽取 领域 相关 研究 分 析 
的 基础 上 ,本文 结合 中 国 科学 院 文献 情报 中 心 “ 建 设 
生物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平台 ” 
的 实际 要 求 , 设计 了 植物 物种 多 样 性 语义 知识 抽取 框 
架 , 探索 实现 了 相应 的 语义 知识 抽取 方法 。 本 研究 更 
多 从 实际 应 用 的 层面 探索 了 可 工程 化 应 用 的 知识 组 织 
框架 及 知识 识别 的 方法 ， 因此 , 词典 和 人 工 撰写 的 规 
则 是 本 研究 中 开展 知识 抽取 的 重要 组 成 部 分 , 正 因为 
此 , 词典 和 人 工 规则 本 身 所 固有 的 局 限 性 也 在 一 定 程 
度 上 限制 了 识别 的 完整 性 和 准确 性 , 在 未 来 ,针对 各 
类 型 知识 单元 的 精细 化 识别 仍 将 是 重要 研究 内 容 。 
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Abstract: [Objective] This paper aims to extract semantic knowledge from the biodiversity studies. [Methods] We 
proposed a new knowledge extraction framework focusing on species. It included various entities as well as the 
relationship among them. The new method was then examined with various specialized databases. [Results] The 
species-oriented knowledge extraction framework, could successfully retrieve semantic information from the target 
entities and the relations among them. This method expanded the scope of knowledge extraction practice in the 
biodiversity field. [Limitations] The recall and precision ratio of the new method was effected by the dictionaries and 
rules. More studies are needed to examine the semantic relationship among the named entities beyond co-occurrence, 
hierarchical and simple syntactic relations. [Conclusions] The proposed method expands the contents and methods of 
knowledge extraction in biodiversity research. It supports the semantic information retrieval and computation. 


Keywords: Plant Species Diversity Plant Species Knowledge Extraction Relation Extraction 


数据 分 析 与 知识 发 现 


